home *** CD-ROM | disk | FTP | other *** search
/ ftp.cs.arizona.edu / ftp.cs.arizona.edu.tar / ftp.cs.arizona.edu / icon / newsgrp / group98c.txt / 000016_icon-group-sender _Fri Sep 11 13:09:21 1998.msg < prev    next >
Internet Message Format  |  2000-09-20  |  4KB

  1. Return-Path: <icon-group-sender>
  2. Received: from kingfisher.CS.Arizona.EDU (kingfisher.CS.Arizona.EDU [192.12.69.239])
  3.     by baskerville.CS.Arizona.EDU (8.9.1a/8.9.1) with SMTP id NAA07475
  4.     for <icon-group-addresses@baskerville.CS.Arizona.EDU>; Fri, 11 Sep 1998 13:09:15 -0700 (MST)
  5. Received: by kingfisher.CS.Arizona.EDU (5.65v4.0/1.1.8.2/08Nov94-0446PM)
  6.     id AA32575; Fri, 11 Sep 1998 13:08:48 -0700
  7. To: icon-group@optima.CS.Arizona.EDU
  8. Date: 11 Sep 1998 11:18:47 -0700
  9. From: Patrick Scheible <kkt@itchy.serv.net>
  10. Message-Id: <iozpc65x88.fsf@itchy.serv.net>
  11. Organization: ServNet Internet Services
  12. Sender: icon-group-request@optima.CS.Arizona.EDU
  13. References: <199809102056.IAA16557@atlas.otago.ac.nz>
  14. Subject: Re: Unicode support or support for non-Ascii based character manipulation?
  15. Errors-To: icon-group-errors@optima.CS.Arizona.EDU
  16. Status: RO
  17.  
  18.  
  19. Gordon Peterson (http://www.computek.net/public/gep2/) wrote:
  20.     
  21. > Okay, I don't dispute that this move is happening but personally I
  22. > still don't very much like it.  The fact is that (at least here in the
  23. > Western Hemisphere, where probably most of the world's computers are
  24. > used) an eight-bit byte is already quite sufficient for most purposes,
  25. > and doubling it comes at a cost in complexity and storage (RAM, disk,
  26. > tape, whatever) which is simply very, very hard to justify on any
  27. > genuine economic basis.
  28.  
  29. ASCII is also NOT adequate for many purposes even in the United
  30. States.  Almost every word processor has their own incompatible way of
  31. representing diacritical marks and characters that were omitted from
  32. ASCII.  (By the way, did you know that there are other countries in
  33. the Western Hemisphere besides the United States?  And most of them
  34. don't speak English?)  I work in a library, and libraries found plain
  35. ASCII inadequate all the way back in the early 1960s, when the
  36. computer programmers were still bitching about people who wanted
  37. lowercase letters.  (By the way, the character set libraries adopted
  38. does a lot better job accomodating all the roman-alphabet languages
  39. than the later ISO standards; pre-composed characters with diacritical
  40. marks greatly expand the character set and still leave out some
  41. combinations that occure in Roman-alphabet languages.)
  42.  
  43. There's borrowed words with diacritical marks, place names from
  44. foreign languages, personal names, quotations from old English.
  45. That's not even counting other Roman-alphabet languages.
  46.  
  47. > If other countries have more difficult (or huge) character sets,
  48. > that is (while a fact of life) simply an inherent disadvantage
  49. > of their culture (and note that I'm not intending that as a slam
  50. > or value judgement, it just IS the way it is), and I don't see a
  51. > terribly convincing argument why the other countries (without
  52. > that disadvantage) ought to pay the price too, just in order to
  53. > artificially level the playing field.
  54.  
  55. Many of those non-Roman character sets are no more difficult than
  56. Roman.  Cyrillic has enough letters to spell the major sounds in its
  57. languages, which you've got to admit is a plus.  Greek, Hebrew,
  58. Arabic, and numerous other alphabets are no harder in themselves than
  59. the Roman.
  60.  
  61. Part of what made them a pain to program was that most of the industry
  62. and national standards organizations all took it on themselves to make
  63. their own 8-bit encodings, so you had to look outside the character
  64. string to interpret the bytes in it. Even if you skip the Han
  65. character set parts of Unicode, Unicode is a huge blessing in that all
  66. the other alphabets have code points within Unicode.
  67.  
  68. The United States is not an island.  Closing our eyes and pretending
  69. that rest of the world doesn't exist and doesn't buy our software
  70. would be a bad idea even if it was possible.
  71.  
  72. If you're concerned about efficiency, maybe you should worry about all
  73. the gratuitous graphics.  Over uncompressed ASCII, compressed Unicode
  74. uses little to no more disk or tape space.  Compressing and
  75. uncompressing strings adds some complexity, but you get some
  76. simplicity by not having to keep track of which character set you're
  77. in and switching back and forth between character sets within what is
  78. logically one string.
  79.  
  80. -- Patrick Scheible
  81.